Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques
Auteur / Autrice : | Nathalie Friburger |
Direction : | Denis Maurel |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2002 |
Etablissement(s) : | Tours |
Mots clés
Mots clés contrôlés
Résumé
Dans les textes journalistiques, les noms propres sont très importants pour une compréhension précise du sens des textes, mais ils sont très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. Nous avons implanté le système CasSys qui permet l'utilisation de cascade de transducteurs et peut ainsi réaliser de l'analyse syntaxique d'un texte ou de l'extraction d'information. Le système d'extraction de noms propres crée, extracNP, utilise casSys ; les phénomènes d'ambigui͏̈tés, de segmentation et de catégorisation des noms propres sont ainsi gérés par la cascade. Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%. Puis, nous avons montré que les noms propres sont porteurs d'une information qui les rend particulièrement intéressants pour obtenir une classification de qualité.